分享我的分布式爬虫架构设计(附二胖视频讲解)
昨天在收拾电脑资料的时候找到一个ppt,是我之前在公司做技术分享时用的ppt。
我本身并不是做爬虫的,但是由于爱好,就在工作之余给同事们做了一个分享。其实这个ppt的内容还是比较有含金量的,不过今天我们就只讲其中的一部分,即爬虫架构,如下图所示:
上图可能比较小,推荐你点开看一看大图。
我本试图用文字阐述一个爬虫的架构,不过确实很难讲解清楚,所以我还是选择录个视频。
视频中提到的所有项目,都是我之前在公众号发布过的,并且部分项目我还公布了代码,所以大家在看过视频之后如果想继续了解这些项目,可以点入后文的链接进行深入了解。
好的,现在我们先来看视频,不过,在公众号看视频的缺点就是不清晰,所以我把视频上传到了腾讯视频,链接也留在下面,大家如果真的感兴趣,可以点击下面的链接观看。
链接:https://v.qq.com/x/page/a0786m3ukpg.html
2
可能看了视频以后很多同学也是一脸懵逼。确实,分享一门技术上来就直接分享架构确实是件很丧心病狂的事情。
不过实在没办法照顾到所有的人,如果有机会,我希望我们能从头讲起,慢慢去实现一个又一个的项目,当然这可能要花很多的时间。
我认为有一个清晰的架构,一个项目才能被维护下去。所以,现在即使看不懂也没关系,学习是一个循序渐进的过程,坚持下去一定会有收获。
3
我在视频中提到的很多内容都是我之前在公众号中分享过的,所以我给大家再列举一下相关的文章,希望对大家有帮助。
在下面列举的文章前,我会选取一两张文章中的图片来介绍这篇文章。
下面的蓝色字体都可以直接点击查看相关文章。
1.链家爬虫
这个标题看上去像是一个鸡汤文,但是不是的,而是一篇数据分析相关的文章,文章中的两个动态图见证了成都的发展和成都房价的暴涨:
2.微博爬虫
微博爬虫我一共写了3篇,其中有一篇还公布了代码,它们分别是:
其中前两篇是数据分析,最后一篇是代码分享。
在创造101最火的那段时间,我分析了一下相关的内容。有粉丝的情绪变化:
也有关键词的提取:
3.知乎爬虫
我在知乎上发布的所有文章中,就这篇文章的粉丝互动性最高:
可能“妹子”才能吸引大家吧。
除了在这篇文章中放出妹子们的照片外,我同样分享了抓取的技术架构和流程,喜欢妹子和架构的同学可以看一看:
除了妹子外,关于知乎,我还做了这些分析:
还有很多我就不一一举例了。
4.微信爬虫
用这篇文章中分享的代码,你可以对你的微信好友进行一系列的分析,比如好友的:性别分布、地域分布、头像等信息。
这篇文章中的代码我也上传到了github,目前已经有800左右的star了,感兴趣的同学可以看看:
5.美团爬虫
说到吃,我想大部分人都是感兴趣的,而恰好我写了和美团餐厅相关的数据分析文章,大家不妨参考一下,文章中也有相应的技术分析:
关于金针菇和全国人民的关系,你们可以去文章中看看:
6.其他
当然,爬虫相关的文章还有很多,我就不一一举例了,留几个链接吧:
噢,对了,这篇文章我想大部分人都感兴趣:
用Python抓取某东购买记录并统计MM的bra大小(附代码)
其他的文章如下:
最后
其实我昨天推的背单词的文章挺有意思的:
因为偏执,所以坚持
长按识别二维码关注,大数据前沿,和三万年轻人一起成长。